ChatGTP全景图 | 背景+技术篇

Original 李光华DavidLee David的AI全景图 2023-11-22

收录于合集 #AI全景图 6个

引言：人类以为的丰功伟绩，不过是开端的开端……我们在未来100年取得的技术进步，将远超我们从控制火种到发明车轮以来所取得的一切成就。——By Sam Altman

说明：ChatGPT发布后，我第一时间体验了它的对话、翻译、编程、写作效果。随着一行行绿色的字快速地跳出来……一种触发了神秘力量的感觉，我预感到，一个更高维的庞然大物出现了。这样的现象级事物，可能对各行业都影响巨大，即使盲人摸象，也值得摸一摸吧。遂陆续收集了国内外100+文章和报告，趁春节假期稍微整理，分享给大家。整理后发现文章太长，计划分成上篇《背景+技术篇》，下篇会是《产品+商业篇》，so，快来催更呀～

01. 背景篇

1.1 ChatGPT和OpenAI是什么？

ChatGPT是什么？

ChatGPT是由美国顶尖AI实验室OpenAI开发的一个人工智能聊天机器人程序，2022年11月上线，上线不到一周就突破100万用户。该程序使用基于GPT-3.5架构的大语言模型并通过强化学习进行训练，

OpenAI是什么？

OpenAI 是美国的AI实验室，非营利组织，定位是促进和发展友好的人工智能，使人类整体受益。OpenAI成立于2015年底，创始人是伊隆·马斯克以及前YC 总裁Sam Altman。

Sam Altman是谁？

马斯克就不用介绍了～ Samuel Altman，85年出生的美国人，斯坦福大学计算机系辍学创业的极客。美国知名风投机构YC的总裁，硅谷创业教父Paul Graham的继承人。如果你还不知道YC，你可能知道一个名人：YC的海外站——YC中国（现已更名奇绩创坛）总裁正是鼎鼎大名的陆奇。

OpenAI发展历程（主要来自维基百科）

2015年底，OpenAI成立，组织目标是通过与其他机构和研究者的“自由合作”，向公众开放专利和研究成果。

2016年，OpenAI宣称将制造“通用”机器人，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。

2019年3月1日成立OpenAI LP子公司，目标是盈利和商业化。

2019年7月22日微软投资OpenAI 10亿美元，双方合作为Azure（微软的云服务）开发人工智能技术。2020年6月11日宣布了GPT-3语言模型，微软于2020年9月22日取得独家授权。

2022年11月30日，OpenAI发布了名为ChatGPT的自然语言生成式模型，以对话方式进行交互。

2023年1月：微软和OpenAI洽谈投资100亿美元事宜，并希望将OpenAI的人工智能技术纳入Word、Outlook、Powerpoint和其他应用程序中。

02 技术篇

2.1 ChatGPT的核心竞争力

从AI的三大核心要素：数据、算法、算力作简要整理分析。另外，在一个新事物的早期，其创始人的初心和愿景也非常值得关注，因此还增加一层——理念层的分析。

数据层：

在有3000亿单词的语料上预训练拥有1750亿参数的模型（训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia）。

算法层：

基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 的威力

翔实的回应：text-davinci-003 的生成通常比 text-davinci-002长([29)(]) 。ChatGPT 的回应则更加冗长，以至于用户必须明确要求“用一句话回答我”，才能得到更加简洁的回答。这是 RLHF 的直接产物。

公正的回应：ChatGPT 通常对涉及多个实体利益的事件（例如政治事件）给出非常平衡的回答。这也是RLHF的产物。

拒绝不当问题：这是内容过滤器和由 RLHF 触发的模型自身能力的结合，过滤器过滤掉一部分，然后模型再拒绝一部分。

拒绝其知识范围之外的问题：例如，拒绝在2021 年 6 月之后发生的新事件（因为它没在这之后的数据上训练过）。这是 RLHF 最神奇的部分，因为它使模型能够隐式地区分哪些问题在其知识范围内，哪些问题不在其知识范围内。

——By 符尧《万字拆解ChatGTP技术路线图》

算力层：

ChatGPT 的背后离不开大模型、大数据、大算力。ChatGPT 成为 AIGC 里程碑的背后，是算力发展和数字时代形成的大数据所共同支持的大模型训练，才能实现目前的效果。由 OpenAI 研发的 ChatGPT 是微调后的 GPT-3.5系列模型，有着多达 1750 亿个模型参数，并在今年年初训练完成。模型训练的背后离不开大数据的支持，OpenAI 主要使用的公共爬虫数据集有着超过万亿单词的人类语言数据集。在算力方面，GPT-3.5 在 Azure AI 超算基础设施（由 V100GPU 组成的高带宽集群）上进行训练，总算力消耗约 3640 PF-days（即每秒一千万亿次计算，运行 3640 天）。

理念层：

1. 使命和愿景。出自OpenAI官网介绍：

OpenAI是一家AI研发和部署公司。我们的使命是确保人工通用智能惠及全人类。

OpenAI章程四个要点（破折号是笔者的个人理解）：

广泛造福社会——利他
关注长远安全问题——保姆：）
我们担心通用人工智能在发展后期将演变成一场激烈的竞赛，导致缺乏充足的时间进行安全防范。因此，如果一个与人类价值观相符、注重安全的项目领先于我们将近达成通用人工智能，我们承诺将停止竞赛，幷转而协助这个项目。我们会针对个别情况设计具体的合作方案。不过，一个典型的触发条件可能会是「这个项目在未来两年内能够成功研发通用人工智能的概率超过一半」。
引领技术研究——前沿
保持合作意愿——开放

2. 创始人讲演摘录：From Sam Altman 万物摩尔定律

我们需要设计一种制度拥抱这种技术化的未来，然后对构成未来世界大部分价值的资产（公司和土地）征税，以便公平地分配由此产生的财富。这样做可以使未来社会的分裂性大大降低，并使每个人都能参与收益分配。

即将到来的变革将围绕着人类最超凡脱群的能力：思考、创造、理解和推理。在三大技术革命（农业革命、工业革命和计算机革命）的基础上，我们将迈入第四阶段：人工智能革命。如果我们作为一个共同的社会体可以负责任地进行这项革命，其产生的足够财富将使每个人都能得到他们所需要的东西。

3. 技术理念（From 张俊林《通向AGI之路：大型语言模型（LLM）技术精要》）

OpenAI是怎么看待LLM的呢？回顾它不断推出的技术，可以看出，它其实从GPT 1.0开始，基本就坚定地把LLM看作是通往AGI的一条必由之路。

具体而言，在OpenAI眼中，未来的AGI应该长这个样子：有一个任务无关的超大型LLM，用来从海量数据中学习各种知识，这个LLM以生成一切的方式，来解决各种各样的实际问题，而且它应该能听懂人类的命令，以便于人类使用。其实对LLM发展理念的理解，在前半部分，就是“构建一个任务无关的超大型LLM，让它从海量数据中学习各种知识”，这一点几乎是大家的共识，能体现出OpenAI眼光的其实是后半部分。

OpenAI的理念比较超前，对自我定位从一开始就定得比较高，始终坚定不移地探索上述方式是否可以实现AGI。OpenAI之所以能作出ChatGPT，胜在一个是定位比较高，另一个是不受外界干扰，态度上坚定不移。

2.2 GPT进化历程

模型维度（By 符尧)

大模型技术架构演进

研发大模型的金主们

数据量和大模型表现统计图

大模型为什么如此全能？

2.3 ChatGPT体验和分析

体验层面分析：

近乎真人一样的理解能力，模型的鲁棒性非常好。

经过道德训练，不评价人，你很难抓住它的把柄。如果没有这一条，chatGTP早被玩坏了，一堆的威胁论和口水战足以让它下线。

更重fact，而不是opinion。你好像在跟一个理智而不是情绪主导的朋友聊天。

中文略逊于英文。如果你让它作一首十四行诗，你会被漂亮的押韵惊讶到。如果许渊冲在世，这个爱玩中英法押韵的老人家估计能找到对手了。

不了解2022年之后的世界。比如2022年卡塔尔世界杯，它会很老实地说自己不知道2022年之后的世界。这可能也是ChatGTP逊色于搜索引擎最大的地方。毕竟，一年的信息Gap足以让很多知识大打折扣。

最后，如果你在问题里埋了陷阱，你可能会发现它在一本正经地胡说八道。

技术层分析（By 张俊林）：

ChatGPT的最大贡献在于：基本实现了理想LLM（大语言模型）的接口层，让LLM适配人的习惯命令表达方式，而不是反过来让人去适配LLM，绞尽脑汁地想出一个能Work的命令（这就是instruct技术出来之前，prompt技术在做的事情），而这增加了LLM的易用性和用户体验。是InstructGPT/ChatGPT首先意识到这个问题，并给出了很好的解决方案，这也是它最大的技术贡献。相对之前的few shot prompting，它是一种更符合人类表达习惯的人和LLM进行交互的人机接口技术。

GTP/BERT这样的大模型出现后，可能导致一部分中间任务消亡。

典型的中间任务包括：中文分词、词性标注、NER、句法分析、指代消解、语义Parser等，这类任务一般并不解决应用中的实际需求，大多数是作为那些解决实际需求任务的中间阶段或者辅助阶段存在的。

自从Bert／GPT出现之后，其实就没有必要做这些中间任务了，因为通过大量数据的预训练，Bert／GPT已经把这些中间任务作为语言学特征，吸收到了Transformer的参数里，此时我们完全可以端到端地直接解决那些最终任务，而无须对这种中间过程专门建模。

这点从统计机器翻译到神经网络机器翻译也有类似发展过程。

局限和弱点分析：

以下是不同渠道的一些局限分析：

指标缺陷：其奖励模型围绕人类监督而设计，可能导致过度优化，从而影响性能，这种如何确定衡量指标的难题在它身上也少不了。就像机器翻译的Bleu值，一直被吐槽，但找不到更好更方便的评估方式。

无法实时改写模型的信念：当模型表达对某个事物的信念时，即使该信念是错误的，也很难纠正它。这，简直就像一个倔强的老头。

知识非实时更新：模型的内部知识停留在2021年，对2022年之后的新闻没有纳入。这点在体验层面也说到了。

模态单一：目前的ChatGPT擅长NLP和Code任务，作为通向AGI的重要种子选手，将图像、视频、音频等图像与多模态集成进入LLM，乃至AI for Science、机器人控制等更多、差异化更明显的其它领域逐步纳入LLM，是LLM通往AGI的必经之路。而这个方向才刚刚开始，因此具备很高的研究价值。

高成本：超级大模型因为模型规模大，所以训练成本过高，导致很少有机构有能力去做这件事。

结语，一些非结构化的感想

就像以太坊创始人V神所说的，一个译后编辑的时代已经到来。AI预先编程、预先草拟内容，人类来修改。实际上，在翻译领域，这场革命已经开始，笔者在做的一个项目(www.languagex.com)就是这个方向。BTW，用LanguageX可以使用全球16个主流翻译引擎翻译，包括chatGPT，欢迎尝试（下图）。
如果我们作为一个共同的社会体可以负责任地进行这项革命（AI革命），其产生的财富足够每个人都能得到他们所需要的东西。——Sam 忘了，"人类的需要"是一个无底洞。不过，这句话的启发是：AI革命将极大提升社会生产力，创造巨额财富。
如果一个与人类价值观相符、注重安全的项目领先于我们将近达成通用人工智能，我们承诺将停止竞赛，幷转而协助这个项目——纯粹、立志服务于人的美好发心，才可以产生美好的愿景，才能做到足够开放，值得吸引顶级的头脑去奋斗，值得顶级的资本投入。
多元，而不是垄断。虽然多元或赛马消耗社会资源，但永远是最安全的方式，如果微软完全控制了OpenAI，我倒希望还有一个足以牵制和抗衡它的AI机构，比如DeepMind，或者其他。
大多数某领域所谓“独有”的问题，大概率只是缺乏领域知识导致的一种外在表象，只要领域知识足够多，这个所谓领域独有的问题，就可以被很好地解决掉，其实并不需要专门针对某个具体领域问题，冥思苦想去提出专用解决方案。也许AGI的真相超乎意料地简单：你只要把这个领域更多的数据交给LLM，让它自己学习更多知识即可。
ChatGPT最惊艳的技能几乎都涉及创意领域，比如写作、编程、翻译。现在看来，AI最有可能取代的工作包含了创造性工作。原来，AI眼中的难和我们眼中的难根本不是一个维度。AI也让我们更认识自己，逼着我们去思考一些事物的本质，比如意识是什么？情感是什么？创造是什么？日光之下，并无新事，我们所谓的“创新”，很大程度上，是不是也是一种沿袭（知识学习）和重组（内容生成）？
AI也将让我们审视，人类有什么是不可替代的？什么是人类更底层的东西？什么是更宝贵更独特的人类特质？什么是应该外包给AI的？人类应该把时间和生命花费在什么事物上？

（LanguageX的多机翻引擎阵列）

预告：如果催更力度达到一定阈值，还会整理一篇产品和商业视角的ChatGPT～

One more thing，福利：

1、有5个比较值得研读的AIGC报告，在本公众号后台回复“chatgpt”可下载；

2、建了一个AIGC/ChatGTP产品交流群，欢迎入群交流。

附：名词解释

AIGC：AI Generated Content ，人工智能自动生成内容

NLP：Natural Language Processing，自然语言处理

LLM：Large language model，大语言模型

AGI：Artificial general intelligence，通用人工智能

Prompt：提示词

Fine-tuning：模型调优